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摘 要 :针对 传统 聚 类 算法 中 只 注重 数据 间 的 距离 关系 ,而 忽视 数据 全 局 性 分 布 结 构 的 问题 ,提出 一 种 基于 EK-medoids 
聚 类 和 邻 域 距离 的 特征 选择 方法 。 首 先 ， 用 稀疏 重 构 的 方法 计算 数据 样本 之 间 的 有 效 距离 ， 构 建 基于 有 效 距离 的 相似 
性 矩阵 ; 然后 ,将 相似 性 矩阵 应 用 到 K-medoids 聚 类 算法 中 ， 获 取 新 的 聚 类 中 心 ， 进 而 提出 EK-medoids 聚 类 算法 ， 可 
有 效 对 原始 数据 集 进行 聚 类 ; 最 后 ， 根 据 划分 结果 所 构成 族 的 邻 域 距离 给 出 确定 数据 集中 的 属性 重要 度 定义 ， 应 用 启 
发 式 搜索 方法 设计 一 种 EK-medoids 聚 类 和 和 邻 域 距离 的 特征 选择 算法 ,降低 了 聚 类 算法 的 时 间 复 杂 度 。 实 验 结果 表明 ， 
该 算法 不 仅 有 效 地 提高 了 聚 类 结果 的 精度 ， 而 且 也 可 选择 出 分 类 精度 较 高 的 特征 子 集 。 
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Feature selection method based on EK-medoids cluster and neighborhood distance 
Sun Yinjie’, Zhang Xinle’, Sun Lin™ bt 

(a. College of Computer & Information Engineering, b. Engineering Technology Research Center for Computing Intelligence & 

Data Mining of Henan Province Henan Normal University, Xinxiang Henan 453007, China) 


Abstract: Since the traditional clustering algorithms only pay attention to the distance relationship among data, and ignore the 
problem of global distribution data structure, this paper proposed a feature selection method based on EK-medoids cluster and 
neighborhood distance. First of all, it calculated the effective distances between data samples by using the sparse reconstruction 
method, and constructed an effective distance-based similarity matrix. Then it matrixed the similarity introduced in the K- 
medoids clustering algorithm, and obtained these new cluster centers. This paper developed an EK-medoids clustering algorithm 
which can effectively cluster these original data sets. Finally, it investigated a neighborhood distance in neighborhood rough set, 
and according to the classification results of clusters, it defined an attribute importance based on the neighborhood distance, and 
designed an EK-medoids cluster and neighborhood distance-based feature selection algorithm on the basis of heuristic searching 
method, which can further reduce the time complexity of cluster algorithms. The experimental results show that our proposed 
algorithm not only effectively can improve the accuracy of the clustering results but also select the feature subset with high 
classification accuracy. 
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表现 出 规模 庞大 、 内 容 复 杂 的 特性 ， 一 方面 特 
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0 引言 不 断 增 加 而 降低 了 学 习 算法 的 效率 ， 男 一 方面 大 量 见 余数 据 的 
微 阵列 技术 是 一 种 研究 基因 表达 的 技术 ， 通 过 分 析 基 因 表 ”出 现 干 扰 了 实验 的 结果 外 。 为 了 降低 这 些 不 利 因素 造成 的 影响 ， 

达 谱 数据 中 成 和 二 上 万 的 基因 数据 而 得 到 有 价值 的 信息 ， 目 前 已 。 诸多 学 者 提出 了 许多 的 特征 (基因 〉 选择 算法 B-9。 

经 广泛 的 应 用 到 医学 等 各 个 领域 。 与 疾病 有 关 的 基因 表达 谱 数 聚 类 分 析 长 期 以 来 在 各 个 领域 扮演 着 重要 的 作用 ， 包 括 金 

居 分 类 已 经 成 为 生物 医学 研究 领域 的 一 个 重要 研究 方向 由。 近 融 、 医 疗 、 图 像 、 和 生物 信息 学 等 方面 咏 习 。 聚 类 方法 通常 并 不 

年 来 , 随 着 科学 技术 的 不 断 发 展 , 基 因 表 达 谱 数据 量 急速 增长 ， 需要 使 用 训练 数据 进行 学 习 ， 因 此 该 类 方法 属于 无 监督 学 习 的 
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范畴 。 近 年 来 ， 随 着 社会 信息 化 水 平 越 来 越 高 ， 需 要 处 理 的 数 
据 也 越 来 要 多 。 数 据 的 高 维度 使 数据 具有 稀疏 、 不 可 聚集 等 特 
性 ， 使 得 大 量 的 聚 类 算法 在 处 理 高 维 空间 数据 时 并 不 尽 人 意 046 

30。 特 征 选择 对 剔除 元 余 、 无 关 的 属性 ， 减 少 后 续 算 法 的 时 间 


复杂 度 ， 提 高 分 类 精度 ， 精 简 算 法 有 着 非常 重要 的 作用 已 2。 
因此 ， 优 化 聚 类 算法 ， 并 将 聚 类 分 析 与 特征 选择 算法 相 结合 ， 


进而 设计 高 效 的 特征 选择 模型 及 算法 是 非常 有 必要 的 。 
对 于 上 面 的 问题 ， 许 多 学 者 已 经 做 出 了 大 量 的 研究 来 减少 
高 维度 对 数据 提取 的 影响 ， 常 用 的 方法 有 基于 粗糙 集 的 特征 选 
择 算法 、 基 于 遗传 算法 的 特征 选择 算法 、 基 于 模式 相似 性 判断 
和 信息 增益 的 特征 选择 算法 B29。 例 如 ， 胡 清华 等 研究 了 邻 
域 粗糙 集 理论 ， 并 将 其 应 用 于 特征 选择 算法 ， 处 理 连 续 性 数据 
鸣 。 段 洁 等 人 针对 多 标记 分 类 任务 ， 重 新 定义 了 邻 域 粗糙 集 下 
近似 和 依赖 度 的 计算 方法 23。 和 孙 林 等 结合 局 部 线性 嵌入 算法 和 
邻 域 粗 糙 集 模型 ， 提 出 了 一 种 基因 表达 谱 数 据 的 基因 选择 方法 


传统 的 距离 函数 包括 马 氏 距离 、 欧 氏 距离 、 切 氏 距 离 、 明 
视 距 离 、 归 一 化 距离 和 绝对 值 距离 等 ， 这 些 距离 函数 只 关注 数 
据 之 间 的 地 理 距离 ， 虽 然 在 计算 时 简单 ， 但 忽略 了 其 它 有 价值 
的 信息 《如 拓扑 几何 关系 等 ) 后 。 为 此 ， 本 文 引入 有 效 距 离 和 
邻 域 距离 ， 提 出 了 一 种 基于 EK-medoids 聚 类 和 和 邻 域 距 离 的 特 
征 选择 方法 。 该 算法 首先 将 有 效 距 离 应 用 于 聚 类 算法 中 ， 对 原 
始 数据 聚 类 ， 然 后 与 邻 域 系统 中 定义 的 邻 域 距离 结合 ， 根 据 聚 
类 所 划分 艇 的 邻 域 距离 ， 计 算 属性 重要 度 ， 并 在 此 基础 上 利用 
启发 式 搜索 方法 设计 特征 选择 算法 。 


1 。” 邻 域 粗粮 集 


Pawlak[?"1 于 1991 年 提出 了 粗糙 集 理 论 ， 它 可 以 有 效 地 处 
里 不 精确 或 模糊 的 概念 。 粗 糙 集 理论 及 其 应 用 发 展 迅 速 ， 已 成 
为 一 种 处 理 不 确定 数据 并 进行 特征 选择 、 规 则 提取 和 知识 发 现 
的 有 效 工 具 P829。 目 前 ， 特 征 选择 方法 使 用 较 多 的 主要 有 基于 
过 滤 算 法 的 方法 和 基于 封装 算法 的 方法 两 类 四。 由 于 过 滤 法 的 
评价 准则 为 数据 之 间 的 特性 ,因而 所 选 特征 之 间 相 关 性 比较 强 。 
封装 法 的 评价 准则 通过 特定 分 类 器 来 实现 ， 在 特征 选择 过 程 中 
需要 多 次 调用 分 类 算法 
传统 的 粗糙 集 理 论 虽 然 选用 了 等 价 类 形式 化 地 表示 了 知识 分 类 ， 
然而 这 些 等 价 类 显然 是 通过 划分 获得 的 ， 对 于 连续 型 数据 的 等 
价 类 ， 其 离散 化 的 过 程 必定 会 导致 某 类 关键 信息 的 丢失 PR。 邻 
域 粗 糙 集 能 够 有 效 地 弥补 经 典 粗 糙 集 理论 的 上 述 缺 点 。 下 面 基 

邻 域 关 系 简要 介绍 邻 域 粗糙 集 的 一 些 相关 概 念 引 229。 

给 定 一 个 邻 域 信息 系统 15 = (U, 4, Vf 5)， 该 五 元 组 中 的 
U 为 非 空 有 限 集 , 称 为 论 域 , 4 为 特征 集 , 特征 a 的 值 域 为 了 


Ne 


hu 


= UV， 其 中 表示 特征 a 的 值 域 ， 该 邻 域 信息 系统 的 信 


息 函 数 为 fk U x 4 一 上， 即 对 任意 xEU 且 aEA4,， 有 ftx, a)E 
成， 邻 域 信息 系统 的 闵 值 为 5e[0, 1]。 


， 进 而 导致 了 算法 的 时 间 复 杂 度 较 高 1。 
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给 定 一 个 五 元 组 I= (U, 4, 也 f6) 中 任意 x,yEU, BSA4 


an}，B 上 的 距离 函数 为 Ds(x, y)， 其 表达 式 为 


B= {ail, a2, ..., 


Dyfed). 0 


I 


P=1 时 ， 式 (1) 为 曼哈顿 距离 ， 当 p=2 时 ， 式 (1) 为 欧 氏 


距离 。 
给 定 一 个 邻 域 信息 系统 I = (U, 4, Vf6), VxEU, Bs 
A4，ns(x) 被 定义 为 x 在 B 上 的 5 邻 域 ， 其 表达 式 为 : 


nV={y|xyeU,D,(y) < 5} O) 


上 面 距离 函数 的 定义 可 知 ， 邻 域 (x) 必须 满足 以 下 条 


a) n (VAG; 
b) xen, (x); 
oj yen (xr) oxen(y); 


qd) Un(W=U, 


给 定 一 个 邻 域 信息 系统 5 = (U, 4, 人 6)， 任 意 特 征 子 集 
BS 4 决定 了 一 个 邻 域 国 值 5 上 的 邻 域 关 系 为 NRo(B8)， 其 表达 
式 为 


NR (B)={(x,y)eU xU |D,(x,y) 5}. (3) 


根据 式 (3) 可 以 得 到 过 的 邻 域 划分 为 VNR5(8)， 进 而 可 以 
定义 U 上 的 一 簇 邻 域 知识 。 以 此 类 推 ， 邻 域 信息 系统 5 中 的 
每 个 邻 域 划分 称 为 一 个 邻 域 类 或 者 邻 域 知识 ， 可 以 得 出 上 述 


n3 (Xx) 就 是 一 个 邻 域 类 。 


2 基于 EK-medoids 聚 类 和 邻 域 距离 的 特征 选择 


2.1 基于 有 效 距离 的 相似 性 矩阵 

Brockmann 等 人 在 寻找 严重 危害 人 类 健康 的 疾病 传播 因素 
和 途径 时 ， 提 出 了 一 种 基于 有 效 距离 的 度量 函数 P931。 通 过 大 
量 数 据 实验 表明 ， 该 函数 能 够 有 效 模拟 出 SARS 病毒 和 HIN1 
病毒 在 全 球 传播 的 情况 ， 与 传统 的 距离 度量 相 比 ， 有 效 距 离 度 
量 能 够 利用 数据 样本 之 间 的 全 局 性 结构 信息 ， 而 降低 数据 的 样 
本 分 布 、 地 理 距 离 等 不 良 因素 的 影响 60。 高 效 的 数据 要 能 够 有 
效 地 表示 出 来 ， 稀 玻 表示 从 数据 自身 学 习 到 几 个 典型 〈 原 子 ) 
模式 的 一 个 组 合 (通常 为 线性 的 ), 可 以 有 效 地 表达 出 高 效 数 据 
的 全 局 特性 。 
段 设 有 一 批 样本 数量 为 x， 样本 维 数 为 4 的 样本 集 式 = 
[1, x2,…，.…Xn] TER"”， 要 分 成 个 类 ，w 是 稀 艳 表示 时 得 到 的 
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权重 系数 ，P 表示 归 一 化 的 权重 系数 ，ED 表示 有 效 距离 ， 依 


据 文 献 [31] 分 别 给 出 权重 系数 矩阵 、 
有 效 距 离 矩 阵 。 
a) 在 数据 样本 之 间 ， 
数 构建 有 向 图 ， 进 而 得 到 权重 系数 wi， 


从 稀 玻 表示 的 过 程 中 所 占 的 权重 系 
其 表达 式 为 : 


min | Xi Bw lb 二 人 | | ? ( 
其 中 ，wi >0, 代表 第 i 个 训练 样本 ;B= 
阵 ， 它 的 每 一 行 是 一 个 属性 ， 每 
的 是 所 有 训练 样本 中 除了 之 外 的 全 部 样本 ，B = 
-Xn]! 表示 样本 从 关中 移 除 。wy 表 示 样 
示 样 本 尺 时 前 面 的 系数 ;入 是 稀 跑 表示 过 程 中 的 正 
E(0, 1]，4 越 大 则 矩阵 越 稀疏 。 

根据 式 (4) 计 算 求 得 权重 系数 矩阵 到 = 
矩阵 是 一 个 nxn 的 权重 矩阵 。 

b) 数据 样本 间 归 一 化 后 的 权重 系数 为 pj， 其 表达 式 为 


[是 一 个 dxn 的 入 


区 


[wi1, Ww2, ...， 


Ws 


n ( 
> Ws 
j=l 


py = 


根据 
说 明 浆 在 稀 玻 重 


津 女 时 ， 所 占 的 权重 越 大 ， 也 就 是 表示 x 在 


归 一 化 的 权重 系数 矩阵 和 


4) 


6 


一 列 是 一 个 样本 ，B 中 所 包含 
[xl X2, .Xi- 
本 头 在 稀 玻 表 
则 化 参数 4 


yiT， 该 


5) 


式 (5) 得 到 归 一 化 的 权重 系数 矩阵 了。 如果 py 越 大 ， 则 


如 


的 所 有 近邻 中 位 置 更 靠 前 ,xi 与 % 之 间 的 相似 度 越 大 ， 有 效 距 

离 就 越 小 。 
9 计算 样本 的 有 效 距 离 ， 进而 得 到 有 效 距 离 矩 阵 BED， 其 表 
ED 1 一 /2Py。 (6) 


于 存在 0<py<1， 则 InPy< 0， 于 是 可 得 EDy> 1。 


离 矩 阵 EDE R"™， 


基于 有 效 距 离 矩 阵 构造 相似 性 矩阵 4，4 


定义 1 利用 稀 玖 表示 的 方法 计算 原始 数据 之 间 的 有 效 距 


a aan 


exp( 一 EDi*EDj); b) 如 果 i=j， 则 4;y= 


2.2 ”基于 相似 性 矩阵 的 K-medoids 聚 类 
传统 的 人 -medoids 租 
合 基于 有 效 距 离 的 相似 性 矩阵 ， 改 进 K-medoids 标 
出 基于 相似 性 和 矩阵 的 K-medoids (EK-medoids) 
传统 的 K-medoids 要 
类 中 心 的 方法 为 


聚 类 方法 o° 


m 


max, DL ) = max, Dp | 一 六 上 2) C 


案 类 算法 通常 使 用 欧 氏 距离 站 ， 本 文 结 
案 类 算法 ， 提 


案 类 算法 中 ， 计 算 第 i 个 肾 类 簇 的 新 聚 


7) 


其 中 :m 表示 该 聚 类 能 所 包含 的 数据 样本 的 个 数 ; wy 表示 属于 该 


聚 类 簇 的 第 gq 个 数据 样本 在 原始 数据 样本 中 的 编号 。 


式 (7) 中 的 目标 是 寻找 到 最 


优 对 (x ,%; )， 进而 使 目标 函数 
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矿 %; ,%; ) 取 得 最 小 值 。 


在 EK-medoids 算法 中 ， 计 算 聚 类 中 心 的 公式 为 : 


max, > f Co ,Xi ) =max, >_exp(-ED， 加 
gq=1 g=l1 


定义 2 


加 ED; ) (8) 


其 中 六 表示 该 聚 类 簇 所 包含 的 数据 样本 的 个 数 ; 为 表示 属于 该 
聚 类 艇 的 第 gq 个 数据 样本 在 原始 数据 样本 中 的 编号 。 


式 (8) 的 目标 是 在 相似 矩阵 4 中 


寻找 最 优 对 (xi ,Yo ), 进而 


使 目标 


函数 人 2， ) 取 得 最 小 值 。 


定义 3 在 EK-medoids 算法 中 ,第 i 个 聚 类 艇 的 新 聚 类 中 
心 为 ci=%， 其 中 i=1,2,...,k,，0<j<m。 

下 面 给 出 EK-medoids 算法 的 具体 步骤 如 下 : 
算法 1 
输入 : 样本 集 和 = [x1,xz,...xn]"， 初 始 化 KK-medoids 初 聚 类 的 个 

数 为 天。 

输出 : 玉 个 样本 类 。 

a) 运 用 式 (6) 构 建 原 始 数据 集 的 有 效 距 离 矩 阵 EDE R"*， 并 根据 有 效 矩 
阵 构 建 相似 矩阵 4 ER"* 


b) 随 机 选取 聚 类 中 心 cu cz .…, cts 
c) 按 照 式 (8) 逐 个 计算 每 个 数据 样本 xi 与 各 个 聚 类 中 心 的 有 效 距 离 ， 并 
将 该 数据 样本 划分 到 与 它 距离 最 近 的 聚 类 簇 中 ; 
qd) 重 新 计算 每 个 聚 类 簇 的 聚 类 中 心 ; 
e 循 环 c) d)， 直 到 聚 类 入 的 中 心 点 不 ] 


变化 或 迭代 次 数 超过 100 次 ; 


人 返回 cl, c2, .…., ck 


2.3 ”基于 邻 域 距离 的 属性 重要 性 
设 定 一 个 信息 系统 S=(U,R), 非 空 有 限 集合 U 表示 对 象 ， 

称 为 论 域 ; 非 空 有 限 集 合 R 表 示 属 性 ;对 任意 rER 有 r: U5， 
太 为 属性 x 的 值 域 ， 对 任意 rER, xEC 有 ce 门 E 万 ,jc 7 是 
一 个 信息 函数 (或 者 f(x))， 该 函数 对 U 中 对 象 的 每 个 属性 赋 
予 信息 值 。 
给 定 一 个 信息 系统 S$=(U,R) 和 xEU， 属 性 集 PsR 上 的 x 
邻 域 可 以 表示 为 


Ne(x) = {y | PO) 
其 中 SR， 在 属性 集 PSCR 上 的 了 邻 域 表示 为 : 


= PO), yE UVU}, 


NO = D | vxeX, PC) = PO), yeU}, (0 


定义 4 ”给 定 一 个 邻 域 系 统 S=(U,R)， 经 聚 类 后 将 UU 划 分 
成 工 个 类 : Cu Cs,.…, Cr， 对 于 任意 PsR， 定 义 类 信息 C 关于 
P 的 邻 域 表 示 为 : 

Np(C) = {Np(C1), Np(C2), ..., Np(CL)}。 (11) 


定义 5 给 定 一 个 邻 域 系统 $= (U, R)， 对 象 集 XsU 和 了 


录用 稿 


SU， 在 属性 集 PCR 上 六 和 了 的 邻 域 距离 为 


|(N;(X)UND(Y)) 
[CN,(X) NN,(Y)) 


Dp(X,Y)= 1 (12) 


性 质 1 给 定 一 个 邻 域 系统 S$=(U, R)， 在 属 | 
了 和 了 的 邻 域 距离 具有 单调 性 , 对 象 集 距离 越 大 , 其 值 就 越 大 。 

证 明 ”给 定 一 个 邻 域 系 统 S=(U, R)， 对 象 集 XeU 和 Ys 
U， 若 半 S 六 5...SU， 则 有 0<Dp(X, 7) <Dp(X, YY) <...<Dy(X, 
U) <1。 因 此 ， 可 知 邻 域 距离 具有 单调 性 ， 对 象 集 距离 越 大 ， 其 
值 就 越 大 。 

定义 6 给 定 一 个 邻 域 系 统 S=(U, R)， 将 其 肾 类 后 会 得 到 
工 个 分 类 : Cu C2, .…, Cr， 进而 可 得 属性 reR 的 属性 重要 度 计 
算 公式 为 


生 集 PER 上 


L 
> D,(X,,X,) 
i=1, j>i 。 (13) 


C, 

2.4 基于 EK-medoid 聚 类 和 邻 域 距离 的 特征 选择 算法 

根据 定义 4 和 5 可 知 ， 可 以 用 EK-medoids 聚 类 所 划分 类 
的 邻 域 距离 来 计算 属性 重要 度 。 由 此 ， 本 文 提 出 一 种 基于 有 效 
距离 的 聚 类 特征 选择 方法 。 该 算法 先 对 原始 数据 集运 用 
蚁 群 算法 进行 聚 类 ， 从 而 获得 原始 数据 集 的 分 类 标签 ， 在 拥有 
分 类 标签 的 簇 间 用 定义 6 来 度量 特征 或 属性 的 属性 重要 度 ， 然 
后 选择 出 具有 较 大 区 分 度 的 特征 子 集 。 
如 果 计 算 高 维 数据 的 所 有 特征 子 集 的 分 类 精度 ， 需 对 2 
个 特征 子 集 (其 中 m 为 数据 集 的 属性 个 数 ) 逐个 进行 检测 ， 这 
样 会 使 算法 的 时 间 复 杂 度 大 幅 增加 。 于 是 ， 本 文采 用 启发 式 搜 
索 的 思想 来 设计 特征 选择 算法 ， 该 算法 的 主要 思想 是 : 以 空 集 
为 出 发 点 ,每 次 都 选择 当前 特征 子 集中 属性 重要 度 最 大 的 属性 ， 
直到 特征 子 集 的 属性 重要 度 不 会 改变 时 终止 。 该 算法 可 以 使 重 
要 的 属性 首先 加 入 特征 子 集 ， 不 会 忽略 重要 的 特性 ， 因 而 ， 本 


Sig(7) = 


算法 选 出 的 特征 子 集 作为 一 个 整体 能 够 保持 原始 数据 的 分 类 能 
力 ， 有 效 地 剔除 了 无 关 的 宛 余 属性 ， 在 此 基础 上 设计 一 种 基于 
EK-medoids 聚 类 和 和 邻 域 距 离 的 特征 选择 算法 。 下 面 给 出 该 算法 
的 详细 步骤。 
算法 2 
输入 : 给 定 一 个 邻 域 系 统 S=(U, R)， 聚 类 个 数 夺 。 
输出 ;最 优 或 次 优 的 特征 子 集 。 

a) 在 数据 集 上 随机 选择 个 初始 中 心 点 ， 并 使 用 EK- 
medoids 聚 类 算法 进行 聚 类 ， 返 回 类 集 C; 


b) 对 任意 xeR， 计 算 其 属性 重要 度 sig(7); 

FS= 90; 

d) 对 任意 riER- Ff， 计算 sig(FSU {1}); 

e) 选 择 满足 max(sig(FSU {})) 的 属性 六 

们 如 果 max(sie(FSU {7)))>0， 则 
FSU {一 FS， 则 转向 d); 否 则 输出 75; 

加 结束 。 
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下 面 给 出 算法 2 的 时 间 复 杂 度 分 析 过 程 : 

步骤 a) 对 原始 数据 集聚 类 的 时 间 复杂 度 为 O(knmn)， 步 双 
pb) 计算 所 有 特征 的 属性 重要 度 的 时 间 复杂 度 为 O(km C2)， 步 又 
dj) 的 时 间 复 杂 度 为 O(km? C2), 步骤 四 的 时 间 复 杂 度 为 Om? C2 
m!)， 所 以 算法 2 总 的 最 坏 时 间 复杂 度 为 O(knmt +O(km 
C? )+O(km? C2)+ Okm? C2 m1!)) 


3 ”实验 结果 与 分 析 


3.1 实验 数据 与 方法 

为 了 验证 算法 的 有 效 性 ,从 UCI 数 据 集中 选择 3 种 数据 集 ， 
分 别 为 Chess、Lung-Cancer 和 Soybean 数据 集 , 这 3 组 UCI 数 
据 集 的 具体 描述 如 表 1 所 示 。 将 特征 选择 后 的 数据 集 的 聚 类 分 
析 与 原始 数据 集 的 聚 类 分 析 作 比较 来 测试 和 验证 本 文 算法 的 有 


效 性 。 


表 1 三 种 UCI 数据 集 的 描述 


Data Set Samples Attributes Class 
Chess 3196 36 2 
Lung-Cancer 32 56 3 
Soybean 47 35 4 


为 检验 本 论文 算法 的 可 行 性 ， 利 用 文献 [10] 提 出 的 正确 率 
(Accuracy, AC )、 类 精度 (Precision, PE) 和 召回 率 (Recall, RE) 
等 三 个 技术 指标 来 对 原始 数据 集 和 经 过 实验 后 的 特征 子 集 进 4 
聚 类 分 析 ， 其 中 正确 率 AC 的 主要 作用 是 验证 算法 的 准确 性 ， 
其 值 越 大 说 明 在 聚 类 的 过 程 中 正确 被 聚 类 的 概率 越 大 ， 而 类 精 
度 PE 和 召回 率 RE 的 主要 作用 是 给 出 算法 正确 聚 类 的 效率 ， 
其 值 越 大 ， 说 明 该 算法 聚 类 的 效率 越 高 。AC、PE 和 RE 的 计算 


ll 


公式 分 别 表示 如 下 : 
大 
a, 
ji ", (14) 
n 
大 a, 
PE= i=l 人 +b, (15) 
大 
大 a, 
RE 二 写 d; +C, 。 (16) 
Kk 


在 式 (14)~(16) 中 , 对象 的 总 个 数 为 n, 划分 到 第 i 个 类 的 对 
象 个 数 中 正确 的 对 象 个 数 为 a:， 错 误 的 对 象 个 数 为 hp;， 而 ci 表 
示 应 该 被 正确 被 分 到 第 i 个 类 却 没 有 分 到 的 对 象 个 数 ，k 为 聚 
类 的 个 数 。 

3.2 ”实验 结果 分 析 

首先 采用 EK-medoids 聚 类 算法 对 每 个 数据 集 进行 聚 类 从 
而 获取 初始 的 类 标签 ， 并 记录 分 类 精度 等 指标 ;再 用 本 文 所 提 
的 特征 选择 算法 ， 选 择 出 一 个 特征 子 集 ， 并 对 所 选 的 特征 子 集 
再 次 聚 类 分 析 从 而 获取 新 的 分 类 精度 ， 最 后 把 得 到 的 分 类 精度 


与 第 一 次 聚 类 得 到 的 分 类 精度 作 比 较 。 


通过 对 原始 数 ] 
及 标准 差 
验 结果 妇 


聚 类 结果 ，After FS 为 经 过 本 文 所 提出 的 
征 选 择 后 , 在 所 得 到 
Min、Max 币 
值 和 标 ; 


基因 数 


目 


表 2 

K-modes 

AC PE 
Mean 0.55 0.55 
Min 0.52 0.26 
Max 0.71 0.71 
SD 0.03 0.05 


居 集 聚 类 100 次 后 ， 
四 个 指标 来 验证 本 文 所 提 算 法 的 
0 表 2~4 所 示 ， 其 中 ，Before FS 为 没有 经 过 特征 


了 车 


Ye 


的 特征 子 集 上 进 
SD 分 别 为 各 项 记 
八 差 。 本 文 所 提出 
( 简 记 为 “算法 1”) 与 文献 [10] 采 用 
居 集 (Chess、Lung-Cancer 和 Soybean ) ; 
前 的 性 能 比较 ， 其 实验 结果 如 表 2~4 所 示 。 


1 有 RR 


天 的 AC、PE、RE 


有 效 性 ， 其 测试 和 实 


特征 选择 算法 进行 特 


行 聚 类 分 析 的 结果 , Mean、 


F 价 指标 的 平均 
的 基于 有 效 距 离 的 K-modes 聚 类 算法 


值 、 最 小 值 、 最 大 


的 K-modes 算法 对 三 种 UCI 


算法 1 
AC 
0.58 
0.53 
0.73 


0.02 


行 特征 选择 之 


两 种 算法 对 数据 集 Chess 在 特征 选择 之 前 的 实验 结果 


PE RE 

0.57 0.69 
0.24 0.52 
0.72 0.78 
0.03 0.07 


表 2 的 实验 结果 分 析 可 知 ,在 Chess 数据 集 下 , EK-medoids 


聚 类 算法 的 正确 率 、 类 精度 、 召 回 率 和 标准 差 明 显 优 于 kK- 


medoids 算法 。EK-medoids 聚 类 算法 


于 K-medoids 算法 。 


类 时 未 被 聚 类 的 数 


法 的 聚 类 了 


三 1 


生 召 


I 


率 的 标准 闫 


上 略 低 


其 主要 原因 


;> 


*E 


进行 了 100 次 聚 类 的 条 件 下 计算 出 
居 过 多 而 导致 的 ， 但 是 EK-medoids 聚 类 算 
E 确 率 和 精度 较 高 。 


于 本 论文 的 实验 数据 是 在 


的 平均 


目 ， 


同时 由 于 重新 聚 


表 3 两 种 算法 对 数据 集 Lung-Cancer 在 特征 选择 之 前 的 实验 结果 


K-modes 

AC PE 
Mean 0.78 0.72 
Min 0.71 0.61 
Max 0.81 0.90 
SD 0.01 0.03 


算法 1 


AC 


PE RE 

0.73 0.69 
0.70 0.57 
0.87 0.93 
0.03 0.04 


表 3 的 实验 结果 分 析 可 知 ， 在 Lung-Cancer 数据 集 下 ， 


EK-medoids 聚 类 算法 的 正确 率 的 最 大 值 略 低 于 K-medoids 算 
法 , 其 它 指标 均 优 于 K-medoids 算法 ,其 主要 原因 是 由 于 Lung- 
Cancer 数据 集 本 身 的 数据 结构 的 稀疏 性 而 导致 的 。 
表 4 两 种 算法 对 数据 集 Soybean 在 特征 选择 之 前 的 实验 结果 
K-modes 算法 1 
AC PE RE AC PE RE 
Mean 0.87 0.90 0.91 0.87 0.91 0.90 
Min 0.68 0.73 0.71 0.69 73 dl 
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Max 0.98 0.98 
SD 0.10 0.07 
由 表 4 


0.92 


0.10 


的 实验 结果 分 析 可 知 ， 在 Soybean 数据 集 下 ，EK- 


medoids 聚 类 算法 的 正确 率 、 类 精 
K-medoids 算法 。 这 充分 说 
明显 优 于 文献 [10] 的 K-modes 算法 。 


法 聚 类 的 精度 和 效率 


的 有 效 性 。 


接 下 来 , 在 表 2~4 实验 结果 的 基础 上 , 为 了 进 


表 2~4 聚 类 的 实验 结果 说 明 EK-medoids 
于 K-medoids 算法 ， 从 而 有 效 地 验证 了 EK-medoids 


竹 差 明显 优 于 


肾 类 3 


度 、 召 回 率 和 标 ; 
明了 本 文 提 出 的 EK-medoids 


聚 类 算法 明显 优 


聚 类 算法 


步 验 证 本 文 


所 提 的 聚 类 优化 特征 选择 算法 的 有 效 性 ， 下 面 与 文献 [10] 所 提 


出 的 聚 类 特征 选择 算法 比较 。 该 算法 首先 在 相同 的 三 个 数据 身 


上 进行 k-modes 聚 类 ， 然 后 经 过 


然后 引 


进行 特征 选择 ， 


四 


新 聚 类 ， 从 而 获得 分 类 精度 的 指 
用 本 文 所 提出 的 基于 EK-medoids 聚 类 和 和 邻 域 距 离 的 特征 选择 
算法 〈 简 记 为 “算法 2”) 与 文献 [10] 所 提出 得 
离 的 特征 选择 算法 〈 简 记 为 “算法 1”)， 对 三 种 UCI 
集 (Chess、Lung-Cancer 和 Soybean) 进行 特征 选择 的 性 能 比 


rr 


其 所 提出 的 聚 类 特征 选择 算法 


来 


外 标 。 


种 基于 邻 域 距 


较 ， 其 实验 结果 如 表 5~7 所 示 。 


表 5 


文献 [10] 的 算法 1 


AC PE 
Mean 0.56 0.77 
Min 0.52 0.76 
Max 0.66 0.79 
SD 0.06 0.01 


两 种 算法 对 数据 集 Chess 特征 选择 的 实验 结果 


算法 2 
RE AC PE RE 
0.94 0.57 0.76 0.95 
0.82 0.53 0.76 -0.83 
0.99 0.72 0.79 0.97 
0.07 0.06 0.01 ”0.05 


表 6 两 种 算法 对 数据 集 Lung-Cancer 特征 选择 的 实验 结果 


文献 [10] 的 算法 1 


AC PE 

Mean 0.74 0.75 

Min 0.71 0.63 

Max 0.84 0.89 

SD 0.04 0.05 
表 7 


文献 [10] 的 算法 1 


AC PE 
Mean 0.85 0.90 
Min 0.72 0.63 
Max 0.84 0.90 
SD 0.11 0.09 


算法 2 
RE AC PE RE 
0.75 0.74 0.76 -0.78 
0.59 0.73 0.72 ”0.69 
0.92 0.85 0.89 0.93 
0.09 0.03 0.06 0.08 


两 种 算法 对 数据 集 Soybean 特征 选择 的 实验 结果 


算法 2 
RE AC PE RE 
0.93 0.89 0.90 ”0.94 
0.59 0.73 0.73 0.72 
0.98 0.96 0.97 ”0.96 
0.05 0.013 0.06 0.05 


表 5~7 的 实验 结果 分 析 可 知 ， 在 经 过 算法 2 的 特征 选择 


录用 稿 


后 重新 聚 类 的 各 项 指标 与 文献 [10] 所 提出 的 算法 1 进行 特征 选 
择 后 重新 聚 类 的 各 项 指标 对 比 ， 算 法 2 在 表 5 和 表 6 中 召回 率 
的 标准 差 略 低 于 文献 [10] 所 提出 的 算法 1, 在 表 7 中 的 召回 率 类 
精度 的 最 大 值 和 表 7 中 类 精度 的 标准 差 略 低 于 文献 [10] 所 提出 
的 算法 1。 其 主要 原因 是 由 于 所 选 特征 子 集 的 结构 特性 而 导致 
I。 算 法 2 的 其 它 指 标的 实验 结果 均 明 显 优 于 文献 [10] 所 : 
的 算法 1。 表 5~7 的 实验 结果 说 明了 两 个 特征 选择 算法 是 
聚 类 时 ， 本 文 所 提 的 算法 2 的 各 项 指标 均 优 于 文献 [10] 所 提出 
的 算法 1， 从 而 反映 出 算法 2 所 选 的 特征 子 集 在 分 类 精度 和 正 
确 率 方面 均 高 于 文献 [10] 所 提出 的 算法 1。 这 些 实验 结果 充分 
表明 本 文 所 提 的 基于 EK-medoids 聚 类 和 和 邻 域 距离 的 特征 选择 
算法 ， 不 仅 可 以 有 效 提高 聚 类 算法 的 精度 ， 还 可 以 选择 出 分 类 
精度 较 高 的 特征 子 集 ， 从 而 验证 了 本 文 所 提出 的 聚 类 优化 特征 
选择 算法 的 有 效 性 和 适用 性 。 


EY 


4 ”结束 语 


本 文 首先 用 稀 政 重 构 的 方法 计算 数据 样本 之 间 的 有 效 距 离 ， 
将 有 效 距离 应 用 到 聚 类 算法 中 。 根 据 对 原始 数据 集 进行 聚 类 划 
分 结果 所 构成 能 的 邻 域 距离 来 确定 数据 集中 属性 的 重要 度 计算 
方法 ， 并 在 此 基础 上 用 启发 式 搜索 方法 设计 特征 选择 算法 ， 最 
后 ， 在 选择 到 的 特征 子 集 上 重新 聚 类 来 验证 所 选 特征 子 集 的 
类 精度 。 实验 结果 表明 ,本 文 所 提 的 基于 EK-medoids 聚 类 和 邻 
域 距离 的 特征 选择 算法 ， 一 方面 提高 了 分 类 精度 ， 另 一 方面 也 
降低 了 计算 耗 时 ， 与 同类 算法 相 比 ， 本 文 所 提出 的 算法 不 仅 可 
以 有 效 提高 聚 类 算法 的 精度 ， 还 可 以 选择 出 分 类 精度 较 高 的 特 
征 子 集 ， 为 聚 类 特征 选择 提供 了 新 的 方法 和 视角 。 
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